Aspekte der Kategorisierung von Webseiten

نویسندگان

  • Matthias Dehmer
  • Alexander Mehler
  • Rüdiger Gleim
چکیده

Im Zuge der Web-basierten Kommunikation tritt die Frage auf, inwiefern Webpages zum Zwecke ihrer inhaltsorientierten Filterung kategorisiert werden können. Diese Studie untersucht zwei Phänomene, welche die Bedingung der Möglichkeit einer solchen Kategorisierung betreffen (siehe [6]): Mit dem Begriff der funktionalen Äquivalenz beziehen wir uns auf das Phänomen, dass dieselbe Funktionsoder Inhaltskategorie durch völlig verschiedene Bausteine Web-basierter Dokumente manifestiert werden kann. Mit dem Begriff des Polymorphie beziehen wir uns auf das Phänomen, dass dasselbe Dokument zugleich mehrere Funktionsoder Inhaltskategorien manifestieren kann. Die zentrale Hypothese lautet, dass beide Phänomene für Web-basierte Hypertextstrukturen charakteristisch sind. Ist dies der Fall, so kann die automatische Kategorisierung von Hypertexten [2, 10] nicht mehr als eindeutige Zuordnung verstanden werden, bei der einem Dokument genau eine Kategorie zugeordnet wird. In diesem Sinne thematisiert das Papier die Frage nach der adäquaten Modellierung multimedialer Dokumente. 1 Einführung in die Problematik Die Aufgabe der automatischen Textkategorisierung [4] besteht darin, textuelle Einheiten den Kategorien eines vorher definierten Kategoriensystems zuzuordnen. Gegenstand der automatischen Klassifikation von Hypertextstrukturen ist es, analog zur automatischen Textkategorisierung, hypertextuelle Einheiten (z.B. Webpages) auf eine vorgegebene Menge von Kategorien abzubilden. Maschinelle Lernverfahren der Textkategorisierung lassen sich in mehrere Gruppen unterteilen, wobei unter anderem Vektorraum-basierte Verfahren Anwendung finden. Für unser spezielles Kategorisierungsproblem wählen wir einen wichtigen Vertreter aus dieser Gruppe aus: die Support Vector Machines [1, 8]. Dieses Verfahren beruht darauf, dass die Daten in einen hochdimensionalen Merkmalsraum projiziert werden und mit Hilfe von Kernelfunktionen [7] nichtlineare Separierungen der zu klassifizierenden Daten sehr effizient vorgenommen werden können. Die Aussagekraft einer Hypertext-Kategorisierungsstudie hängt entscheidend davon ab, dass der Kategorisierung eine gründliche Analyse des zu klassifizierenden Inhalts vorausgeht: (i) Der zu klassifizierende Inhalt muss klassifizierbar sein — er muss sich möglichst eindeutig einer bestimmten Kategorie aus dem Kategoriensystem zuordnen lassen. (ii) Das Kategoriensystem muss sinnvoll und repräsentativ gewählt sein. In dieser Untersuchung werden Webpages aus dem Bereich akademischer Konferenzen als zu kategorisierende Objekte betrachtet, wobei funktional abgrenzbare Einheiten, wie Seiten für den CfP, Anmeldedaten, Unterkünfte oder die elektronische Anmeldung, automatisch kategorisiert werden sollen. Die Problematik dieser scheinbar einfachen Kategorisierungsaufgabe, wird unmittelbar anhand von Abbildung (1) deutlich. Sie veranschaulicht, dass dieselbe Funktionsoder Inhaltskategorie — hier Calls for Participation — auf derselben oder — funktional äquivalent — über verschiedene Seiten präsentiert werden kann, wobei in letzterem Fall die gewünschte Untergliederung von Partizipationsarten mittels Links erreicht wird. Dieses einfache Beispiel verweist auf ein Phänomen, das wir bei Web-basierten Hypertextstrukturen beobachtet haben und dessen systematisches Vorkommen einer unmittelbaren Kategorisierung im oben erläuterten Sinn entgegensteht (siehe [6]): Seite A in Abbildung (1) ist insofern kategorial mehrdeutig, als sie zugleich mehrere Unterarten des Call for Participation manifestiert. Sollen diese Unterarten in der Kategorisierung separiert werden, so ist das Beispiel notwendigerweise mehreren Kategorien zuzuordnen. Wir sprechen in diesem Fall von Polymorphie: Dasselbe Dokument setzt sich aus Ausdruckseinheiten zusammen, die verschiedene Kategorien manifestieren. Dass aber das Beispiel B aus Abbildung (1) überhaupt als funktional (partiell) äquivalent zu Beispiel A gelten kann, liegt daran, dass verschiedene Komponenten von Webpages ähnliche Funktionen übernehmen können: Links sind in diesem Beispiel beispielsweise durch eine stärkere Dokumentuntergliederung ersetzbar. In diesem Fall sprechen wir von funktionaler Äquivalenz beider Ausdrucksmittel. Die Hypothese lautet nun: Wenn funktionale Äquivalenz und Polymorphie charakteristische Eigenschaften Web-basierter Strukturen sind, dann können Webpages nicht länger als eindeutig kategorisierbare Einheiten gelten, da polymorphe Webpages mehrere Kategorien instanziieren. Somit wird ein relationaler Zusammenhang von Hypertextstrukturtypen und Kategorien erwartet. Dass wir von Polymorphie/funktionaler Äquivalenz anstelle von Polysemie/Synonymie sprechen, liegt nicht nur daran, dass letztere Termini primär auf lexikalischer Ebene Anwendung finden, sondern auch daran, dass der Polymorphiebegriff in der Linguistik nicht allein auf die Mehrdeutigkeit, sondern auch auf die strukturelle Variabilität von Zeichen fokussiert.

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

Phishing still works: Erfahrungen und Lehren aus der Durchführung von Phishing-Experimenten

Wir beschreiben die Durchführung und die Ergebnisse zweier Experimente, bei denen der Einfluss verschiedener Gestaltungsparameter von E-Mails und Webseiten auf den Erfolg von Phishing-Angriffen untersucht wurde. Wir berichten außerdem über unsere Erfahrungen, welche technischen, ethischen und rechtlichen Aspekte beim Design und der Durchführung solcher Experimente beachtet werden müssen.

متن کامل

Hochschul-Apps im Überblick

Der Beitrag gibt einen Überblick über vorhandene mobile Apps an deutschen Hochschulen. Dafür werden inhaltliche, technische und organisatorische Aspekte ausgewertet. Aus dem Vergleich bzw. der Kategorisierung ergibt sich eine Aufstellung von zu bedenkenden Fragen und möglichen Realisierungswegen, die eine Entscheidungshilfe für Hochschulen bei der Entwicklung eigener Apps bietet.

متن کامل

Erfolgsfaktoren von On-Demand-Enterprise-Systemen aus der Sicht des Anbieters - eine explorative Studie

Diese Arbeit thematisiert erfolgsrelevante Aspekte für On-DemandEnterprise-Systeme aus Sicht eines Serviceanbieters. Auf Basis der Forschungsfrage: „Inwiefern bieten in Abgrenzung zu konventionellen On-PremiseLösungen On-Demand-Enterprise-Systeme Vorteile für Unternehmen“ reduziert die Studie die Wissenslücke bezüglich der Erfolgsfaktoren dieses speziellen Serviceangebotes. Anhand 12 explorativ...

متن کامل

Security und Safety - das Yin und Yang der Systemsicherheit?

Yin und Yang stehen in der chinesischen Philosophie für Gegensätze, z. B. Kräfte oder Prinzipien, in ihrer wechelseitigen Bezogenheit. In diesem Beitrag wird das Bild von Yin und Yang benutzt, um die Beziehungen zwischen Safety und Security am Beispiel der Eisenbahnsignaltechnik zu erläutern. Dabei werden sowohl die normativen Grundlagen als auch typische Anwendungen diskutiert. Insbesondere di...

متن کامل

A Detailed Comparison of Information Visualization Tools Using a Reference Data Set

ii (deut.) Durch die Komplexität der Dimension Zeit ist die Visualisierung temporärer Daten kein einfaches Problem. In den letzten zehn Jahren wurden viele Ansätze, derartige Daten darzustellen und mit ihnen zu interagieren, veröffentlicht. Deren Vielfalt reicht von einfachen linearen Zeitachsen über innovative Ideen, welche visuelle Metaphern zur Darstellung verwenden, bis zu Clustering-Techik...

متن کامل

ذخیره در منابع من


  با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

عنوان ژورنال:

دوره   شماره 

صفحات  -

تاریخ انتشار 2004